19 research outputs found

    Classification spectrale semi-supervisée : Application à la supervision de l'écosystÚme marin

    Get PDF
    In the decision support systems, often, there a huge digital data and possibly some contextual knowledge available a priori or provided a posteriori by feedback. The performances of classification approaches, particularly spectral ones, depend on the integration of the domain knowledge in their design. Spectral classification algorithms address the problem of classification in terms of graph cuts. They classify the data in the eigenspace of the graph Laplacian matrix. The generated eigenspace may better reveal the presence of linearly separable data clusters. In this work, we are particularly interested in algorithms integrating pairwise constraints : constrained spectral clustering. The eigenspace may reveal the data structure while respecting the constraints. We present a state of the art approaches to constrained spectral clustering. We propose a new algorithm, which generates a subspace projection, by optimizing a criterion integrating both normalized multicut and penalties due to the constraints. The performances of the algorithms are demonstrated on different databases in comparison to other algorithms in the literature. As part of monitoring of the marine ecosystem, we developed a phytoplankton classification system, based on flow cytometric analysis. for this purpose, we proposed to characterize the phytoplanktonic cells by similarity measures using elastic comparison between their cytogram signals.Dans les systÚmes d'aide à la décision, sont généralement à disposition des données numériques abondantes et éventuellement certaines connaissances contextuelles qualitatives, disponibles a priori ou fournies a posteriori par retour d'expérience. Les performances des approches de classification, en particulier spectrale, dépendent de l'intégration de ces connaissances dans leur conception. Les algorithmes de classification spectrale permettent de traiter la classification sous l'angle de coupes de graphe. Ils classent les données dans l'espace des vecteurs propres de la matrice Laplacienne du graphe. Cet espace est censé mieux révéler la présence de groupements naturels linéairement séparables. Dans ce travail, nous nous intéressons aux algorithmes intégrant des connaissances type contraintes de comparaison. L'espace spectral doit, dans ce cas, révéler la structuration en classes tout en respectant, autant que possible, les contraintes de comparaison. Nous présentons un état de l'art des approches spectrales semi-supervisées contraintes. Nous proposons un nouvel algorithme qui permet de générer un sous-espace de projection par optimisation d'un critÚre de multi-coupes normalisé avec ajustement des coefficients de pénalité dus aux contraintes. Les performances de l'algorithme sont mises en évidence sur différentes bases de données par comparaison à d'autres algorithmes de la littérature. Dans le cadre de la surveillance de l'écosystÚme marin, nous avons développé un systÚme de classification automatique de cellules phytoplanctoniques, analysées par cytométrie en flux. Pour cela, nous avons proposé de mesurer les similarités entre cellules par comparaison élastique entre leurs signaux profils caractéristiques

    Constrained spectral embedding for K-way data clustering

    Get PDF
    International audienceSpectral clustering methods meet more and more success in machine learning community thanks to their ability to cluster data points of any complex shapes. The problem of clustering is addressed in terms of finding an embedding space in which the projected data are linearly separable by a classical clustering algorithm such as K-means algorithm. Often, spectral algorithm performances are significantly improved by incorporating prior knowledge in their design, and several techniques have been developed for this purpose. In this paper, we describe and compare some recent linear and non-linear projection algorithms integrating instance-level constraints (“must-link” and “cannot-link”) and applied for data clustering. We outline a K-way spectral clustering algorithm able to integrate pairwise relationships between the data samples. We formulate the objective function as a combination of the original spectral clustering criterion and the penalization term based on the instance constraints. The optimization problem is solved as a standard eigensystem of a signed Laplacian matrix. The relevance of the proposed algorithm is highlighted using six UCI benchmarks and two public face databases

    Machine learning techniques to characterize functional traits of plankton from image data

    Get PDF
    Plankton imaging systems supported by automated classification and analysis have improved ecologists' ability to observe aquatic ecosystems. Today, we are on the cusp of reliably tracking plankton populations with a suite of lab-based and in situ tools, collecting imaging data at unprecedentedly fine spatial and temporal scales. But these data have potential well beyond examining the abundances of different taxa; the individual images themselves contain a wealth of information on functional traits. Here, we outline traits that could be measured from image data, suggest machine learning and computer vision approaches to extract functional trait information from the images, and discuss promising avenues for novel studies. The approaches we discuss are data agnostic and are broadly applicable to imagery of other aquatic or terrestrial organisms

    Constrained spectral clustering : Application to the monitoring of the marine ecosystem

    No full text
    Dans les systÚmes d'aide à la décision, sont généralement à disposition des données numériques abondantes et éventuellement certaines connaissances contextuelles qualitatives, disponibles a priori ou fournies a posteriori par retour d'expérience. Les performances des approches de classification, en particulier spectrale, dépendent de l'intégration de ces connaissances dans leur conception. Les algorithmes de classification spectrale permettent de traiter la classification sous l'angle de coupes de graphe. Ils classent les données dans l'espace des vecteurs propres de la matrice Laplacienne du graphe. Cet espace est censé mieux révéler la présence de groupements naturels linéairement séparables. Dans ce travail, nous nous intéressons aux algorithmes intégrant des connaissances type contraintes de comparaison. L'espace spectral doit, dans ce cas, révéler la structuration en classes tout en respectant, autant que possible, les contraintes de comparaison. Nous présentons un état de l'art des approches spectrales semi-supervisées contraintes. Nous proposons un nouvel algorithme qui permet de générer un sous-espace de projection par optimisation d'un critÚre de multi-coupes normalisé avec ajustement des coefficients de pénalité dus aux contraintes. Les performances de l'algorithme sont mises en évidence sur différentes bases de données par comparaison à d'autres algorithmes de la littérature. Dans le cadre de la surveillance de l'écosystÚme marin, nous avons développé un systÚme de classification automatique de cellules phytoplanctoniques, analysées par cytométrie en flux. Pour cela, nous avons proposé de mesurer les similarités entre cellules par comparaison élastique entre leurs signaux profils caractéristiques.In the decision support systems, often, there a huge digital data and possibly some contextual knowledge available a priori or provided a posteriori by feedback. The performances of classification approaches, particularly spectral ones, depend on the integration of the domain knowledge in their design. Spectral classification algorithms address the problem of classification in terms of graph cuts. They classify the data in the eigenspace of the graph Laplacian matrix. The generated eigenspace may better reveal the presence of linearly separable data clusters. In this work, we are particularly interested in algorithms integrating pairwise constraints : constrained spectral clustering. The eigenspace may reveal the data structure while respecting the constraints. We present a state of the art approaches to constrained spectral clustering. We propose a new algorithm, which generates a subspace projection, by optimizing a criterion integrating both normalized multicut and penalties due to the constraints. The performances of the algorithms are demonstrated on different databases in comparison to other algorithms in the literature. As part of monitoring of the marine ecosystem, we developed a phytoplankton classification system, based on flow cytometric analysis. for this purpose, we proposed to characterize the phytoplanktonic cells by similarity measures using elastic comparison between their cytogram signals

    Optimisation de l’identification et du dĂ©nombrement du microphytoplancton avec le systĂšme couplĂ© de numĂ©risation et d’analyse d’images FlowCAM – Zoo/PhytoImage (systĂšme innovant)

    No full text
    This report details the work accomplished to enhance the Zoo/PhytoImage software to optimize its use for the analysis of phytoplankton samples in general, but more particularly, in the framework of an operational survey of coastal seawater (REPHY, IFREMER). Zoo/PhytoImage allows to analyze “numerically recorded” plankton samples, that is, by using digital images gathered with specialized devices such as the FlowCAM, or the FastCAM (see report 3). A machine learning approach allows to automatically classify the digitized particles into various taxonomic groups. Once this is done, global statistics are calculated on each sample, including the number of particles, the biomass, and the size spectrum per taxonomic group. Two major changes are introduced in the calculations done by Zoo/PhytoImage: - the enumeration of the cells per colonies allows to express results per cell, where previous versions of the software only expressed results per colonies, - an active learning algorithm is implemented in order to optimize the validation step (manual correction of the residual error after automatic classification of the particles by the computer). This way, the software will learn how to perform that correction based on the validations done so far by the taxonomist. Consequently, the computer now assists dynamically the user in the verification and correction procedure. The number of items that the user has to manually check is thus greatly reduced in order to reach a given goal (say, less than 5% of residual error in each taxonomic group). The report is made of three complementary parts: - the first two sections (advance reports on March and June 2015) detail the progression in the cells per colonies enumeration and in the implementation of active learning. The former section explores ideas, whereas the latter one finalizes the best solutions and tests them on actual samples from the REPHY. - the third section is a new French version of the Zoo/PhytoImage user manual that focuses on the analysis of plankton images from the FlowCAM (and the FastCAM), including the new functionalities. Of course, this user manual comes with the code of the new version 5.4.0 of Zoo/PhytoImage that fully implements these new features. A version 6.0 will be made public shorty, at the end of the beta test period: it will be very close to the version 5.4.0 described in the present report. An optimization of the validation procedure was also developped. The validation of samples is now performed with complex statistic tools : (i) the selection of particles which will be checked by the technician is determined in a probabilist way (detection of suspects), (ii) a second classification is used to assist the user in validation (active learning), (iii) finally, a statistical correction algorithm of error is implemented on the results. This reduces the validation work. This means that the taxonomist may stop earlier and manually correct the allocation of taxonomic groups to suspicious particles. The progress of the validation work is clearly presented and the number of steps necessary to achieve a given objective (eg, less than 5% error in all taxonomic groups) is anticipated. All these measures contribute to both comfort and efficiency of validation.Ce livrable dĂ©taille les travaux rĂ©alisĂ©s pour l'Ă©volution du logiciel Zoo/PhytoImage afin d'en optimiser l'usage dans le cadre de l'Ă©tude d'Ă©chantillons de phytoplancton de maniĂšre gĂ©nĂ©rale, et dans le cadre de son utilisation opĂ©rationnelle pour le monitoring des eaux cĂŽtiĂšres tel que rĂ©alisĂ© par le REPHY Ă  l'Ifremer en particulier. Zoo/Phytoimage permet d'analyser des Ă©chantillons de plancton fixĂ©s numĂ©riquement, c'est‐à‐dire, sur base d'images obtenues Ă  l'aide d'un appareil spĂ©cialisĂ© comme le FlowCAM ou le FastCAM (voir livrable n°3). La classification supervisĂ©e (machine learning) permet de classer de maniĂšre automatique les particules imagĂ©es dans les diffĂ©rents groupes taxonomiques, et d'en dĂ©river ensuite des statistiques sur l'Ă©chantillon tout entier : dĂ©nombrement, biomasse et spectre de tailles par groupe taxonomique. Deux changements majeurs ont Ă©tĂ© introduits en 2015 dans les calculs rĂ©alisĂ©s par Zoo/PhytoImage : - le dĂ©nombrement des cellules par colonies qui permet d'exprimer les donnĂ©es par cellules, lĂ  oĂč les rĂ©sultats Ă©taient limitĂ©s aux colonies dans les versions antĂ©rieures, - l'apprentissage actif qui permet un travail optimisĂ© lors de la validation de la classification effectuĂ©e par l'ordinateur. En effet, au cours de la validation des rĂ©sultats, le logiciel va apprendre Ă  corriger l'erreur au fur et Ă  mesure que le taxonomiste effectue manuellement ce travail de correction. Le logiciel va donc accompagner de maniĂšre dynamique l'utilisateur dans son travail de vĂ©rification et de correction. Il en rĂ©sulte une diminution importante dans la quantitĂ© de donnĂ©es qui doit ĂȘtre vĂ©rifiĂ©e par l'utilisateur pour atteindre un objectif donnĂ© (par exemple, moins de 5 % d'erreur rĂ©siduelle dans chaque groupe taxonomique). Une optimisation de la procĂ©dure de validation a Ă©galement Ă©tĂ© dĂ©veloppĂ©e. La validation des Ă©chantillons fait maintenant intervenir des outils statistiques poussĂ©s, puisque : (i) la sĂ©lection des particules que l'utilisateur vĂ©rifie est dĂ©terminĂ©e d'une maniĂšre probabiliste (dĂ©tection des suspects), (ii) un second classifier est utilisĂ© pour seconder l'utilisateur dans la validation (apprentissage actif), (iii) enfin, un algorithme de correction statistique de l'erreur est implĂ©mentĂ© sur les rĂ©sultats finaux. L'ensemble permet de rĂ©duire le travail de validation. Cela signifie que le taxonomiste peut arrĂȘter plus tĂŽt de visualiser et corriger manuellement l'attribution des groupes taxonomiques aux particules suspectes. Un tableau de bord prĂ©sente de maniĂšre claire et graphique l'avancement du travail de validation et anticipe le nombre d'Ă©tapes nĂ©cessaire pour atteindre un objectif donnĂ© (par exemple, moins de 5 % d'erreur dans tous les groupes taxinomiques). Toutes ces mesures contribuent Ă  la fois au confort et l'efficacitĂ© de la validation. Le livrable est composĂ© de trois rapports complĂ©mentaires : - Les deux premiers (rapports d’avancement mars et juin 2015, respectivement pages 10 Ă  69 et 70 Ă  88 du document pdf) dĂ©taillent la progression dans le dĂ©nombrement des cellules par colonies et dans l'implĂ©mentation de l'apprentissage actif. Le premier des deux explore des pistes, et le second concrĂ©tise les solutions retenues et les teste sur des Ă©chantillons plus larges issus du REPHY. - Le troisiĂšme rapport est une version du manuel utilisateur de Zoo/PhytoImage en français (pages 89 Ă  120 du document pdf) qui se focalise sur l'analyse de donnĂ©es de type FlowCAM (et FastCAM) en y incluant les deux nouvelles fonctionnalitĂ©s dĂ©crites ci‐dessus. Bien entendu, associĂ© Ă  ce manuel, le code est disponible et matĂ©rialise le travail rĂ©alisĂ© sous forme d'une nouvelle version 5.4.0 de Zoo/PhytoImage. Une version 6.0 sera rendue publique Ă  la fin de la phase de beta‐test : elle sera trĂšs proche de la version 5.4.0 dĂ©crite ici

    Protocole sur les outils de reconnaissance optimisés Manche Atlantique. Action 9 - FlowCam ZooPhytoImage. Livrable n° 2. Rapport final

    No full text
    The FlowCAM/ZooPhytoImage tool is composed of FlowCAM device for digitizing the images of phytoplanktonic particles and ZooPhytoImage software that can automatically identify and count phytoplankton from these images. The latter is a software for image processing and automatic classification, based on the principle of "machine learning". It allows to realize the different steps of the process that leads to the automatic or semi-automatic classification of a set of objects from a given set of images, using supervised learning algorithms. For this, it is necessary to perform a training set composed of images from FlowCAM, representative of particles encountered in the samples to be analyzed later and make an automatic or semiautomatic recognition tool using the training set previously created to "train" a supervised classification algorithm to recognize the nature of the particles based on measurements obtained on digital images. In our study, two training sets were created from images acquired through the FlowCAM with the 4X/300ÎŒm assembly: a set from live samples (named "REPHY_alive_4X") and a set from samples fixed with acid Lugol's solution (named "REPHY_lugol_4X"), both containing 36 groups (plankton + detritic particles). Indeed, although the resolution of the images is significantly reduced, this assembly can digitize samples more quickly (thanks to the corresponding flow cell which is thicker). This has three advantages: faster constitution of categories of the training set, faster detection of rare taxa, and digitization of a larger sample volume providing a better counting accuracy (better estimation of abundance for each group). The performances of recognition tools generated from the two training sets by cross validation show that the Random Forest algorithm is undoubtedly the best algorithm proposed because it provides global recognition scores very encouraging after optimization (83.76 % for the set "REPHY_alive_4X" and 79.66% for the set "REPHY_lugol_4X"). However, the support vector machines and the linear discriminant analysis can also be considered as recognition algorithm within the REPHY network because of their high performances. Thus, these methods allow to discriminate 29 (for the set "REPHY_alive_4X") and 25 (for the set "REPHY_lugol_4X") phytoplankton groups with the most accurate taxonomic level. It is important to note that the training sets used here contained few thumbnails for some groups. It is why, for each training set, from 5 to 10 groups were temporarily excluded from the analysis due to lack of thumbnails. However, the digitization of new samples should provide required thumbnails to complete these minority groups, allow to include these groups into the training sets and consider their automatic or semi-automatic recognition by new recognition tools. Moreover, the groups already included in the training sets should be completed to obtain 100 to 200 objects in each group, ideally. However, the cells arranged in colony are not individually identified by the software. A colony is considered as a single object. Therefore, it is not possible to compare the cell counts performed within the REPHY network, with the automatic counts. Abundance measures in terms of cells representing an essential information, works are necessary in order to count automatically or semi-automatically, the cells in a colony. The FlowCAM / ZooPhytoImage is becoming an operational tool in 2014. Completely adapted to the phytoplankton observations performed in the context of the French monitoring network REPHY, it will allow answering more accurately to the questions of WFD and MSFD concerning the evaluation of marine water quality. For instance, the first benefit will be for the acquisition of data necessary to the calculation of abundance index, part of the phytoplankton index for WFD in Channel and Atlantic water bodies : as a matter of fact, this index is based on the proportion of micro-phytoplankton taxa which are very abundant in a water sample.L'outil FlowCAM/ZooPhytoImage est constituĂ© du dispositif FlowCAM destinĂ© Ă  numĂ©riser les images de particules phytoplanctoniques, et du logiciel ZooPhytoImage qui permet d'identifier automatiquement et de dĂ©nombrer le phytoplancton Ă  partir de ces images. Ce dernier est un logiciel d’analyse d’images et de classification automatique, basĂ© sur le principe du "machine learning". Il permet de rĂ©aliser les diffĂ©rentes Ă©tapes du processus qui conduit Ă  la classification automatisĂ©e, ou semi-automatisĂ©e, d’un ensemble d’objets, Ă  partir d’un jeu d’images donnĂ©, en utilisant des algorithmes d'apprentissage supervisĂ©e. Pour cela, il est nĂ©cessaire de rĂ©aliser un set d’apprentissage constituĂ© d’images issues du FlowCAM et reprĂ©sentatives des particules rencontrĂ©es dans les Ă©chantillons Ă  analyser ultĂ©rieurement, et de rĂ©aliser un outil de reconnaissance automatique, ou semi-automatique, du phytoplancton en utilisant le set d’apprentissage prĂ©cĂ©demment crĂ©Ă© pour "entraĂźner" un algorithme de classification supervisĂ©e Ă  reconnaĂźtre la nature des particules sur la base des mesures obtenues sur les images numĂ©riques. Dans notre Ă©tude, deux sets d'apprentissage ont Ă©tĂ© constituĂ©s Ă  partir d'images acquises au FlowCAM grĂące Ă  l'utilisation de l'assemblage 4X/300ÎŒm : un set Ă  partir d'Ă©chantillons vivants (nommĂ© "REPHY_alive_4X") et un set Ă  partir d'Ă©chantillons fixĂ©s au Lugol acide (nommĂ© "REPHY_lugol_4X"), contenant tous deux, 36 groupes (plancton + dĂ©bris). En effet, bien que la rĂ©solution des images soit fortement rĂ©duite, cet assemblage permet de numĂ©riser les Ă©chantillons beaucoup plus rapidement (grĂące Ă  la cellule de flux correspondante qui est plus Ă©paisse). Ceci prĂ©sente trois avantages : constitution plus rapide des catĂ©gories du set d’apprentissage, dĂ©tection plus rapide de taxons rares, et numĂ©risation d’un plus grand volume d’échantillon offrant une meilleure prĂ©cision de comptage (meilleure estimation de l’abondance pour chaque groupe). Les performances des outils de reconnaissance gĂ©nĂ©rĂ©s Ă  partir des deux sets d'apprentissage par validation croisĂ©e montrent que l'algorithme Random Forest est sans nul doute le meilleur des algorithmes envisagĂ©s car il fournit des scores de reconnaissance globaux trĂšs encourageants aprĂšs optimisation (83.76% pour le set "REPHY_alive_4X" et 79.66% pour le set "REPHY_lugol_4X"). Cependant, les mĂ©thodes Ă  vecteurs supports et l'analyse discriminante linĂ©aire peuvent Ă©galement ĂȘtre envisagĂ©es comme algorithme de reconnaissance dans le cadre du REPHY en raison de leurs performances Ă©levĂ©es. Ainsi, ces mĂ©thodes permettent de discriminer 29 (pour le set "REPHY_alive_4X") et 25 (pour le set "REPHY_lugol_4X") groupes phytoplanctoniques Ă  un niveau taxinomique le plus prĂ©cis possible. Toutefois, il est important de noter que les sets d'apprentissage utilisĂ©s ici contenaient peu de vignettes pour certains groupes. C'est pourquoi, pour chaque set d'apprentissage, entre 5 et 10 groupes ont Ă©tĂ© momentanĂ©ment Ă©cartĂ©s de l'analyse par manque de vignettes. Cependant, la numĂ©risation de nouveaux Ă©chantillons devrait fournir les vignettes nĂ©cessaires pour complĂ©ter ces groupes minoritaires, et ainsi permettre d'inclure ces groupes aux sets d'apprentissage et d'envisager leur reconnaissance automatique ou semi-automatique par de nouveaux outils de reconnaissance. De plus, les groupes dĂ©jĂ  inclus dans les sets d'apprentissage devraient ĂȘtre complĂ©tĂ©s afin d’obtenir de 100 Ă  200 objets dans chaque groupe, idĂ©alement. Cependant, les cellules agencĂ©es en colonie ne sont pas encore identifiĂ©es individuellement par le logiciel. Une colonie est donc considĂ©rĂ©e comme un objet unique. De ce fait, il n’est pas possible de comparer les comptages cellulaires rĂ©alisĂ©s pour le REPHY avec les comptages automatiques. Les mesures d'abondance en termes de cellules reprĂ©sentant une information capitale, des travaux sont donc nĂ©cessaires afin de pouvoir dĂ©nombrer de maniĂšre automatique ou semi-automatique, les cellules d'une colonie. Le systĂšme couplĂ© FlowCAM / ZooPhytoImage devient un outil vĂ©ritablement opĂ©rationnel en 2014. Totalement adaptĂ© aux observations du phytoplancton rĂ©alisĂ©es dans le cadre du rĂ©seau d’observation REPHY, il permettra de mieux rĂ©pondre aux sollicitations prĂ©sentes et futures concernant l'Ă©valuation de la qualitĂ© des eaux littorales et marines dans le cadre des exigences europĂ©ennes, telles que la DCE et la DCSMM. Un des bĂ©nĂ©fices immĂ©diats sera par exemple pour l’acquisition des donnĂ©es nĂ©cessaires au calcul de l’indice abondance composant l’indicateur phytoplancton pour la DCE en Manche- Atlantique, indice qui est basĂ© sur la proportion de taxons du micro-phytoplancton prĂ©sents en quantitĂ© importante dans un Ă©chantillon

    EcoTransLearn: an R-package to easily use Transfer Learning for Ecological Studies. A plankton case study

    No full text
    In recent years, Deep Learning (DL) has been increasingly used in many fields, in particular in image recognition, due to its ability to solve problems where traditional machine learning algorithms fail. However, building an appropriate DL model from scratch, especially in the context of ecological studies, is a difficult task due to the dynamic nature and morphological variability of living organisms, as well as the high cost in terms of time, human resources and skills required to label a large number of training images. To overcome this problem, Transfer Learning (TL) can be used to improve a classifier by transferring information learnt from many domains thanks to a very large training set composed of various images, to another domain with a smaller amount of training data. To compensate the lack of “easy-to-use” software optimized for ecological studies, we propose the EcoTransLearn R-package, which allows greater automation in classification of images acquired with various devices (FlowCam, ZooScan, photographs, etc.), thanks to different TL methods pre-trained on the generic ImageNet dataset. Availability and Implementation EcoTransLearn is an open-source package. It is implemented in R, and calls Python scripts for image classification step (using reticulate and tensorflow libraries). The source code, instruction manual and examples can be found at https://github.com/IFREMER-LERBL/EcoTransLearn. Supplementary information Supplementary data are available at Bioinformatics online

    Finalisation d’un outil prĂ©opĂ©rationnel FlowCAM / ZooPhytoImage. Action9 - FlowCAM ZooPhytoImage. Livrable n° 3. Rapport final

    No full text
    Today, the most widely used method for the analysis of samples within the REPHY network, is the microscopy. However, this method has several drawbacks: different skill level depending on the analyst, taxa may be misidentified, analyst subject to fatigue and loss of concentration, non-quantifiable errors. That is why different axis of development have been proposed to adapt the FlowCAM and ZooPhytoImage to the requirements of REPHY network which are the accuracy and repeatability of the measurement. The purpose of these new tools being to provide a tangible gain of time for analysts compared to the observations with optical microscope. The analysis time being a key point of this system, studies were conducted in order to achieve a fast acquisition. To have a representative measurement of the environment, 2,000 particles must be counted. To reduce the analysis time, we choose to pre-concentrate the samples when the cell concentration is less than 105 cells/L. At the same time as this, the repeatability and accuracy of measurement are determined by the optical system settings. This is why, an automatic actuator allowing to improve the repeatability of the flow cell positioning with respect to the lens, has been installed on the FlowCAM. To perform quantitative analyzes of the samples, it is also necessary to make various settings associated to the fluid system of FlowCAM. Experiments on the flow direction and on the viscosity of the samples were performed. The results show that a systematic pre-filtration of the samples is required for some analyzes. However, a pre-filtration of the sample does not allow analysis of total flora. This solution is therefore dependent on the objectives set by the user (partial flora, indicator flora, etc.) and must be applied on a case by case basis. The quantitative comparisons of abundances and concentrations obtained by the microscope and by FlowCAM/ZooPhytoImage were then performed for samples of REPHY 2013. A volume of 10 mL was digitized for each of these samples, which offers a counting accuracy comparable to the one resulting from manual counting. Indeed, one particle detected by FlowCAM corresponds to in situ cell concentration of 100 cells/L, which is equivalent to a count with the inverted microscope. The averages of species recognition rates are approximately 69% for the samples fixed with lugol's solution and 67.50% for the live samples. These performance indices are encouraging. However, such scores are too low to provide reliable classifications routinely. It is therefore necessary to validate the data through a manual verification step of predictions done by the computer. This process is accelerated by the fact that the computer has made a correct classification of 65-75 %, with respect to a manual classification of thumbnails. This module determines a probability of being suspect for each particle, and only the most suspect particles are validated. This particular approach offers an ideal compromise between the automatic method and the total manual validation, while guaranteeing similar or better performance of recognition within an acceptable time. An important problem lies in the storage and banking of data from the FlowCAM/ZooPhytoImage system. Indeed, the management of digital data associated with an image and the problem of the flexibility of the system with multiple protocols for a dataset, can be complex. Therefore, the integration of data in Quadrige ÂČ requires the writing of specifications to define system requirements. The FlowCAM / ZooPhytoImage is becoming an operational tool in 2014. Completely adapted to the phytoplankton observations performed in the context of the French monitoring network REPHY, it will allow answering more accurately to the questions of WFD and MSFD concerning the evaluation of marine water quality. For instance, the first benefit will be for the acquisition of data necessary to the calculation of abundance index, part of the phytoplankton index for WFD in Channel and Atlantic water bodies : as a matter of fact, this index is based on the proportion of micro-phytoplankton taxa which are very abundant in a water sample.Aujourd'hui, la mĂ©thode la plus utilisĂ©e pour l'analyse des Ă©chantillons dans le cadre du REPHY est celle de la microscopie. Cependant, cette mĂ©thode souffre de nombreux inconvĂ©nients : niveaux de compĂ©tence diffĂ©rents selon les opĂ©rateurs, taxons pouvant faire l'objet d'identifications erronĂ©es, observateur sujet Ă  la fatigue et Ă  la dĂ©concentration, erreurs non quantifiables. C'est pourquoi, diffĂ©rents axes d'Ă©volution ont Ă©tĂ© proposĂ©s pour adapter le FlowCAM couplĂ© Ă  ZooPhytoImage aux exigences du REPHY qui sont la justesse et la rĂ©pĂ©tabilitĂ© de la mesure. L'objectif de ces nouveaux outils est d'offrir un gain de temps tangible aux observateurs REPHY par rapport aux observations au microscope optique. Le temps d'analyse Ă©tant un point clef de ce systĂšme, des Ă©tudes ont Ă©tĂ© menĂ©es afin de pouvoir rĂ©aliser une acquisition rapide. En ce sens, afin que la mesure soit reprĂ©sentative du milieu, au moins 2000 particules doivent ĂȘtre comptĂ©es. Pour rĂ©duire le temps d'analyse, nous choisissons donc de prĂ©-concentrer les Ă©chantillons lorsque la concentration cellulaire est infĂ©rieure Ă  105 cellules/L. ParallĂšlement Ă  cela, la rĂ©pĂ©tabilitĂ© et la justesse de la mesure sont conditionnĂ©es par les rĂ©glages optiques du systĂšme. C'est pourquoi, un actionneur automatique permettant d’amĂ©liorer la rĂ©pĂ©tabilitĂ© du positionnement de la cellule de flux par rapport Ă  l'objectif a Ă©tĂ© dĂ©veloppĂ© et installĂ© sur le FlowCAM. Pour effectuer des analyses quantitatives des Ă©chantillons, il est Ă©galement nĂ©cessaire de procĂ©der Ă  diffĂ©rents rĂ©glages liĂ©s au systĂšme fluidique du FlowCAM. Des expĂ©rimentations sur le sens du dĂ©bit et sur la viscositĂ© des Ă©chantillons ont Ă©tĂ© rĂ©alisĂ©es. Il en rĂ©sulte qu'une prĂ©-filtration systĂ©matique des Ă©chantillons s'impose pour certaines analyses. Cependant, une prĂ©-filtration de l'Ă©chantillon ne permet pas (ou plus) l'analyse de flores totales. Cette solution est donc dĂ©pendante des objectifs fixĂ©s par l'utilisateur (flores partielles, flores indicatrices, etc.) et doit ĂȘtre appliquĂ©e au cas par cas. Les comparaisons quantitatives des abondances et concentrations obtenues par lectures au microscope et par FlowCAM/ZooPhytoImage ont ensuite Ă©tĂ© rĂ©alisĂ©es pour des Ă©chantillons REPHY 2013. Un volume de 10 mL a Ă©tĂ© numĂ©risĂ© pour chacun de ces Ă©chantillons, ce qui offre une prĂ©cision de comptage comparable Ă  celle rĂ©sultant d’un comptage manuel. En effet, une particule dĂ©tectĂ©e par le FlowCAM correspond Ă  une concentration cellulaire in situ de 100 cellules/L, ce qui est Ă©quivalent Ă  un comptage au microscope inversĂ©. Les moyennes des taux de reconnaissance des espĂšces sont d'environ 69% pour les Ă©chantillons lugolĂ©s et 67.50% pour les Ă©chantillons vivants. Ces indices de performances sont donc encourageants. Cependant, de tels scores sont trop faibles pour donner des classifications fiables en routine. Il faut donc valider les donnĂ©es, grĂące Ă  une Ă©tape de vĂ©rification manuelle des classements effectuĂ©s par l'ordinateur. Cette opĂ©ration est accĂ©lĂ©rĂ©e par le fait que l'ordinateur a effectuĂ© un classement correct Ă  65-75%, par rapport Ă  une classification purement manuelle des vignettes. Le module de correction dĂ©termine une probabilitĂ© d'ĂȘtre suspect pour chaque particule, et seules les particules les plus suspectes sont Ă  valider. Cette approche particuliĂšre offre un compromis idĂ©al entre la mĂ©thode automatique et la validation manuelle totale, tout en garantissant des performances de reconnaissance similaires ou meilleures dans un laps de temps acceptable. Un problĂšme important concerne le stockage et la bancarisation des donnĂ©es issues du systĂšme FlowCAM/ZooPhytoImage. En effet, la gestion des donnĂ©es numĂ©riques associĂ©es Ă  une image ainsi que le problĂšme de la flexibilitĂ© du systĂšme avec plusieurs protocoles pour un jeu de donnĂ©es, peuvent rendre a priori complexe la bancarisation des donnĂ©es. L'intĂ©gration des donnĂ©es sous QuadrigeÂČ passe donc par la rĂ©daction d'un cahier des charges afin de dĂ©finir les exigences du systĂšme. Le systĂšme couplĂ© FlowCAM / ZooPhytoImage devient un outil vĂ©ritablement opĂ©rationnel en 2014. Totalement adaptĂ© aux observations du phytoplancton rĂ©alisĂ©es dans le cadre du rĂ©seau d’observation REPHY, il permettra de mieux rĂ©pondre aux sollicitations prĂ©sentes et futures concernant l'Ă©valuation de la qualitĂ© des eaux littorales et marines dans le cadre des exigences europĂ©ennes, telles que la DCE et la DCSMM. Un des bĂ©nĂ©fices immĂ©diats sera par exemple pour l’acquisition des donnĂ©es nĂ©cessaires au calcul de l’indice abondance composant l’indicateur phytoplancton pour la DCE en Manche- Atlantique, indice qui est basĂ© sur la proportion de taxons du micro-phytoplancton prĂ©sents en quantitĂ© importante dans un Ă©chantillon

    Version Ă©volutive de l’outil opĂ©rationnel de numĂ©risation et d’analyse semi-automatique d’images de phytoplancton, utilisant le matĂ©riel FlowCAM et le logiciel ZooPhytoImage. Nouvelles perspectives

    No full text
    The coupled system FlowCAM/ZooPhytoImage has become a real operational tool in 2014. However, to be fully adapted to the observations of phytoplankton performed in the context of the REPHY observation network and in order to better respond to present and future requests concerning the evaluation of quality of coastal and marine waters within the European requirements, such as the WFD and MSFD, new functionalities must be integrated into existing tools. Therefore, different axis of development have been proposed by UMONS and Ifremer to adapt both the digitization device and the Zoo/PhytoImage software to the constraints defined by the REPHY. First, version 5 of Zoo/PhytoImage contains recent innovations such as the development of routines to automatically import and analyze data, and the redesign of the graphical user interface to improve the ergonomics and the ease of use. The latter has been studied from the point of view of its fit for specific treatments related to the needs of major partners. Indeed, it appears desirable to significantly increase the visual interaction with the software, particularly in terms of exploration of vignettes and raw data, and the automation of some tasks. For this, in this version of the software, the image processing tools and raw data transformation are implicitly applied. Second, the latest version of Zoo/PhytoImage provides relevant automatic identifications of phytoplankton but without distinction of a cell from a colony. However, even if the colonies greatly contribute to the annual productivity, all the estimators of biomass are essentially calibrated on the abundance in terms of cells per volume unit. In this report, the proposed method consists in building predictive models to estimate the number of cells per colony, based on manual counts performed on the particles of the training set. In this study, high performance scores obtained by different predictive methods, were highlighted on six taxonomic groups of colonial phytoplankton from eastern Channel and Southern North Sea. Finally, the error correction module, integrated to Zoo/PhytoImage since version 4, provides identifications with a low percentage of error per group for each analyzed sample. We propose here to use the information related to the manual validation of vignettes by expert to open the way to the active learning. In this report, we show the interest of this process for the semi-automated recognition of phytoplankton, such as the building and automatic adaptation of the training set allowing to use a "global" training set at national level; the improvement of clustering performances for new samples; a time saving during the validation of the automatic predictions in the context of the error correction.Le systĂšme couplĂ© FlowCAM/ZooPhytoImage est devenu un outil vĂ©ritablement opĂ©rationnel en 2014. Cependant, pour qu'il soit totalement adaptĂ© aux observations du phytoplancton rĂ©alisĂ©es dans le cadre du rĂ©seau d’observation REPHY, et afin de mieux rĂ©pondre aux sollicitations prĂ©sentes et futures concernant l'Ă©valuation de la qualitĂ© des eaux littorales et marines dans le cadre des exigences europĂ©ennes, telles que la DCE et la DCSMM, des nouvelles fonctionnalitĂ©s doivent ĂȘtre intĂ©grĂ©es aux outils existants. C'est pourquoi, diffĂ©rents axes d'Ă©volution ont Ă©tĂ© proposĂ©s par l'UMONS et Ifremer pour adapter, Ă  la fois l'appareil de numĂ©risation et le logiciel ZooPhytoImage aux contraintes dĂ©finies par le REPHY. PremiĂšrement, la version 5 de Zoo/PhytoImage contient de rĂ©centes nouveautĂ©s telles que le dĂ©veloppement de routines pour importer et analyser les donnĂ©es automatiquement, et la refonte de l'interface graphique pour une meilleure ergonomie et une simplicitĂ© d'utilisation. Cette derniĂšre a Ă©tĂ© Ă©tudiĂ©e du point de vue de son adĂ©quation pour des traitements spĂ©cifiques liĂ©s aux besoins des principaux partenaires. En effet, il apparaissait dĂ©sirable d'augmenter considĂ©rablement l'interactivitĂ© visuelle avec le logiciel, notamment au niveau de la visualisation des vignettes, des donnĂ©es brutes et de l'automatisation de certaines tĂąches. A cette fin, dans cette version du logiciel, les outils de traitement d'images et de transformation des donnĂ©es brutes sont appliquĂ©s implicitement. DeuxiĂšmement, la derniĂšre version de Zoo/PhytoImage permet d'obtenir des identifications automatiques pertinentes du phytoplancton mais sans distinguer une cellule d'une colonie. Or, mĂȘme si les colonies contribuent en grande partie Ă  la productivitĂ© annuelle, l'ensemble des estimateurs de la biomasse sont calibrĂ©s essentiellement sur l'abondance en termes de cellules par unitĂ© de volume. Dans ce rapport, la mĂ©thode proposĂ©e consiste Ă  construire des modĂšles prĂ©dictifs permettant d'estimer le nombre de cellules par colonie, en se basant sur les comptages manuels rĂ©alisĂ©s sur les particules du set d'apprentissage. Dans cette Ă©tude, des scores Ă©levĂ©s de performance obtenus par diffĂ©rentes mĂ©thodes prĂ©dictives ont Ă©tĂ© mis en Ă©vidence sur six groupes taxinomiques de phytoplancton colonial de la Manche Orientale et du Sud de la Mer du Nord. Enfin, le module de correction de l'erreur, intĂ©grĂ© Ă  Zoo/PhytoImage depuis la version 4, permet d'obtenir des identifications avec un faible pourcentage d'erreur par groupe, pour chacun des Ă©chantillons analysĂ©s. Nous proposons ici, d'utiliser l'information liĂ©e Ă  la validation manuelle des vignettes par l'expert, afin d'ouvrir la voie Ă  l'apprentissage actif. Dans ce rapport, nous montrons les intĂ©rĂȘts de ce processus pour la reconnaissance semi-automatisĂ©e du phytoplancton, Ă  savoir : la construction et l'adaptation automatique du set d'apprentissage permettant de partir d'un set « global » au niveau national ; l'amĂ©lioration des performances de classification automatique de nouveaux Ă©chantillons ; un gain de temps lors de la validation des prĂ©dictions automatiques dans le cadre de la correction de l'erreur
    corecore